查看原文
其他

昊音通:当大多声纹识别停留在APP,他们则能在电话端实现?|裸泳投资欲

王珺 裸泳 2020-09-09


阻碍声纹识别广泛应用的,除了语料库(声纹数据)的规模还在起步阶段以外,还在于技术门槛。


记者:王珺/主编:张浩

深度报道/共2802字/阅读6分钟



项目名称昊音通

主营业务:声纹识别

融资情况:2018年10月获得光谷创业咖啡800万元天使轮投资

关键词:声纹识别、电话信道声纹识、准确率达95%以上、无损转换多格式互转、防录音检测算法、多地区方言兼容、公安&社保&银行、东风汽车、中科院

受访人:昊音通联合创始人 徐泉

一句话提炼:提供领先的声纹AI解决方案与专业服务,拥有Cmfmc2.0信道和格式转换引擎等多项自主知识产权的核心技术。



对于昊音通联合创始人徐泉来说,解释得最多的,可能就是『声纹识别』和『语音识别』、『语义识别』的区别。

 

简单来说,这三者的根本目不一样——语音识别是识别语义内容,语义识别是对内容进行语义纠正和理解,比如同声翻译机;而声纹识别则是用于识别说话人的身份,即『你是张三,还是李四』。

 

从这点上看,声纹识别和人脸、指纹、虹膜、步态识别承载的功能类似,都属于『生物识别』的范畴。

 

『所以我们和语音、语义识别是不同层面。』

 

在过去的很长时间内,虽然也有『听声识人』的存在,但声音大多只是作为一种交流手段。因为其叙事模糊的固有特点,纯听情况下,声音是难于确认的,几乎每个声音都可以唤起另一个与之相近的声音。当然,最爱的歌手和人可能除外。

 

对于能捕捉声纹的电声学仪器来说,声音是相对唯一的。

 

或许不少人还记得2017年热播剧《人民的名义》里的一个片段,陈海在车祸前接到两个举报电话,京州公安局将两个电话交由不同技术部门进行鉴定,最终得出结论,两通电话举报人的声音并非蔡成功一人。这就是通过声纹进行身份认证的例子。

 


同样属于生物识别领域,相比这两年大火的人脸和指纹,声纹识别似乎表现有些『低调』。

 

其实从易用性、准确率、成本、用户接受、远程认证和手机采集等角度对比,相比于指纹、掌型、人脸、虹膜等技术,声纹识别在各方面都占据一定优势。而就未来的市场来说,似乎也并不小。

 

那么,为什么声纹识别目前在市场占有率落后于人脸识别等技术呢?

 

在徐泉看来,除了语料库(声纹数据)的规模还在起步阶段以外,还在于技术门槛——前期技术不过关是阻碍声纹识别广泛应用的重要因素。

 

目前业界比较著名的AI公司都推出了声纹识别引擎,但在具体引擎算法落地过程中,格式转换和跨信道问题对识别准确率影响很大——各类格式和信道五花八门,如果采取常规算法转换格式和直接跨信道验证,将会大大降低声纹识别的准确性。

 

另一个问题是APP端市场大多已经被人脸、指纹锁占领,徐泉表示,声纹识别真正优势其实是在电话端进行远距离识别,但在2016年的时候几乎没有公司能够真正实现,『当时某社保局找到我们,要求通过电话传声筒进行声纹识别,但那时候市场上普遍的观点是电话是无法进行声纹识别的。』

 

 昊音通联合创始人 徐泉


武汉昊音通科技2016年成立于武汉,前身是武汉旭华,2005年被香港上市公司科维控股2000万收购。创始人刘敏拥有语音通讯行业15年市场和研发经验,曾为通讯运营商提供千万用户长达10多年的语音服务。

 

2016年,他们研发出Ai-Voice Cmfmc2.0引擎,具有多项自主知识产权的核心技术,实现了电话信道声纹识别难题的突破,『目前市面上所用的声纹都停留在APP阶段,只有我们能够在电话信道进行识别,准确率可以达到95%以上。

 

这就意味着相比指纹、虹膜、人脸等需要近距离采集,声纹识别只需要一通电话,就可以远距离确认对方身份,不管使用的是否是自己的手机。

 

除此之外,Ai-Voice Cmfmc2.0引擎还具有支持无损转换多格式互转、防录音检测算法、多地区方言完美兼容等特点,且支持多种客户终端认证,有效解决了格式转换和跨信道转换问题,手机录音进行破解的情况也将不复存在。

 

徐泉告诉我们,国内做声纹识别的企业并不多,只有得意音通、SpeakIn、厦门快商通等五六家,每个公司都有自己的优势。但对于电话信道等特殊场景下的识别,昊音通技术处于领先位置。

 

目前,他们已与公安系统、社保系统、银行、东风汽车等机构和企业进行合作,还将与安徽省政府、中科院研究所合作,成立声纹研究中心,进行产品再研发和市场推广。

  


声纹识别最早是在40年代末,由贝尔实验室开发,用于军事情报领域,直到60年代末后期开始在美国法医鉴定、法庭证据等领域使用。可以说在安防和金融等领域,声纹识别有着先天的落地场景和前景,可以作为公安侦查的辅助手段。

 

昊音通正在与某市公安局合作,通过声纹识别辅助公安进行身份鉴定和动态布控。身份鉴定即1:1比对,验证『你是你』,比如上述人民的名义例子;动态布控则是1:N,从N个人中找出目标,确认『你是谁』,昊音通目前能实现百万级数秒内响应,即100万数据中3s内确定目标人物。

 

简单来说,嫌疑人只要在公共场合声音被抓取,或通过任何通讯设备发出声音,都会在几秒内被公安机定位捕捉,最近的警察即可进行抓捕。

 

金融领域的声纹识别也已得到监管部门的认可。近日央行发布《移动金融基于声纹识别的安全应用技术规范》,为声纹识别进入移动金融领域解决了标准难题,昊音通与银行的合作也在进行中。

 

社保系统中声纹认证也有明显应用价值。以养老金为例,以前需要老人到社保局进行年审,而常常会出现退休老人在外、或者是身体原因无法出门等情况。对此,昊音通为某社保局定制的社保声纹认证系统,只需要通过接一通电话即可以完成身份认证工作,还可和人脸识别结合提高准确率。

 

徐泉表示,这一技术既便捷了老人,又能有效减少冒领、骗保等风险。2018年7月人社部宣布取消集中认证,推广app远程认证,也符合国家政策推进方向。

 

2C领域的声纹应用也逐步兴起,比如日前华为发布国内首款搭骨声纹的AI智能音箱,将声纹识别的应用范围拓展到智能家居领域。对此,昊音通后续将推出声纹锁,与东风合作开发『声纹+指纹无钥匙启动系统』,这意味着以后开车可能不需要带钥匙,指纹开门后只需要喊一声,就可以直接启动。

 

 

和初入市场时的人脸识别类似,声纹识别似乎也不缺质疑。一是存在本身缺陷,即声纹识别容易受真实情况下的环境影响,包括噪音、多人说话、音乐噪声、身体和情绪等,二是否具有真正的意义和价值,认为声纹识别和人脸识别的功能性重复

 

在徐泉看来,固有缺陷总能通过技术克服,昊音通也正在进行声道分离相关研究,以实现嘈杂和多人说话情况下的声纹识别;我们需要看到的是,没有任何一种手段可以实现100%验证,各个技术都需要找到合适的应用场景,『技术被接纳和应用都有一个过程,我们一直认为声纹识别市场属于爆发前期。』

 

声纹识别具有成本低以及应用广泛的核心优势,相比虹膜和人脸,成本下降明显且十分便捷,在某些场景或许更适合进行落地使用。比如人脸、虹膜对光线要求严苛,人脸太暗不行,虹膜太亮不行,而采取高端技术又极大增加了成本,这时候声纹就更能发挥作用。

 

『声纹识别与人脸、虹膜等并不是非此即彼的,而是互补的关系,多重识别技术组合将成为应用主流。

 

只是和其他识别手段类似,声纹识别最终也向着深度学习的方向发展,因而需要庞大的数据驱动。而声纹识别对数据的要求其实比语音识别更高,『语料库本身就是个很大的门槛,也是突破声纹识别、真正能让声纹识别落地千家万户的关键因素。』 


对项目感兴趣可在后台与我们联系~


- End -



精彩文章回顾 ☟



对大多人来说,我们并不了解这个世界的运行方式 | 批发价买别墅,只买商品,不买营销 | 他们让游戏内容重回C位置 | 二手免费交易平台做母婴用品一手租赁 | SAAS+AI智能影像如何赋能医疗决策 作为投资人,无形的东西比有形的东西更重要 | 打破刚兑,私募才有春天 | 发乎情的咖啡,如何不止于赔 楚商集团李璟璟:“走心”投资,“掘金”医药 | 枫红资产万杰:理工男的并购经 | 光谷硅谷的差距,不在产业,而在金融 | 武汉注定微不足惜,武汉注定一举千里 | 这并不是一个乌托邦产业,自动驾驶就是未来



裸泳已进驻今日头条、新浪、网易、天天快报、搜狐、九派、大鱼号、雪球、财条、百家号等,敬请关注。

   


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存